步驟一:找出目標URL網址和參數
找出目標資料是位在Web網站的單一頁面或多頁不同的頁面,我們使用瀏覽器來確認目標資料所在的URL網址和相關參數值。
步驟二:判斷網頁內容是如何產生
成功找出目標URL網址和相關參數後,需要判斷網頁內容是如何產生的,在瀏覽器進入目標的URL網址後,使用Quick JavaScript Switcher擴充功能來切換執行JavaScript碼,判斷網頁內容是否有改變。
-
網頁內容完全相同: 不管有沒有執行JavaScript程式碼,網頁內容都一樣,代表是靜態網頁,不包含JavaScript程式碼。
-
網頁內容有差異,但目標資料沒有改變: JavaScript程式碼只影響非目標資料,因為目標資料仍然存在,操作和靜態網頁並沒有甚麼不同。
-
目標資料消失: 執行JavaScript程式影響到目標資料,需要判斷是否是AJAX網頁(資料完全消失)還是部份透過JavaScript程式碼來產生目標資料(只有部分資料消失)。
步驟三:擬定擷取資料的網路爬蟲策略
-
執行JavaScript程式碼不會影響目標資料: 表示Python程式送出的HTTP請求能成功取回目標資料的HTML標籤,Python程式是使用Request送出請求來取得回應的HTML網頁,在網頁定位目標資料所在的位置取出資料。
-
執行JavaScript程式碼會影響目標資料: 表示Python程式送出的HTTP請求無法成功取回目標資料。
步驟四:將取得資料儲存成檔案或存入資料庫
當爬取及收集好網路資料後,我們需要整理成結構化資料並儲存起來,一般會儲存成CSV檔案、JSON檔案或存入資料庫。
今天的分享就先到這邊,我們明天見~
書籍參考資料:文科生也可以輕鬆學習網路爬蟲